长文综述:中文知识图谱构建技术及其应用
The following article is from 专知 Author 韩艳飞
知识图谱一直是研究的热点,东南大学漆桂林老师等发表了一篇关于中文知识图谱构建的综述论文,详细讲述了当前中文知识图谱的研究进展,本文是对这篇论文的编译。
10月25日周五晚,集智俱乐部联合X-Order邀请慕尼黑大学教授 Volker Tresp 在北京举办一场公开讲座,介绍知识图谱领域前沿进展,欢迎报名参加,详情见文末。
论文题目: A Survey of Techniques for Constructing Chinese Knowledge Graphs and Their Applications
论文地址:https://www.mdpi.com/2071-1050/10/9/3245
随着智能技术的不断发展,作为人工智能支柱的知识图谱以其强大的知识表示和推理能力受到了学术界和产业界的广泛关注。近年来,知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。构建中文知识图谱的技术也在迅速发展,不同的中文知识图谱以支持不同的应用。同时,我国在知识图谱开发方面积累的经验对非英语知识图谱的开发也有很好的借鉴意义。本文旨在介绍中文知识图谱的构建技术及其应用,然后介绍了典型的中文知识图谱,此外我们介绍了构建中文知识图谱的技术细节,并介 绍了了中文知识图谱的几种应用。
下图是本文的文章结构:
知识图谱介绍
知识图的概念最初是由谷歌知识图项目于2012年5月16日提出的。本项目旨在利用结构化知识增强谷歌搜索引擎,提高搜索质量和用户体验。如图1所示,当搜索“Yao Ming”时谷歌中,除了与“姚明”相关的网页显示在左侧外,还有一些结构化的“姚明”的信息也会出现在右侧(例如,出生日期,出生地,身高和他的妻子)。这样全面的返回结果依赖于背景知识图。与传统的基于关键词匹配的网络搜索相比,基于知识图的语义搜索更具有优势搜索,可以更好地理解用户的查询意图,从而提供更简洁、更智能的搜索结果。例如,当在谷歌中搜索“姚明身高”时,它不仅返回网页分别与“姚明”和“身高”相关,也直接返回“2.29米”给用户。随后,一些知名企业声称知识图谱是其核心组成部分之一构建下一代智能搜索引擎的架构。为了加强Bing搜索,微软建立了一个名为“Satori”的大规模知识图。百度公司已经建设了三个不同类型的知识图,包括实体图谱、关注图谱、意图图谱等将它们应用到它的搜索引擎。另一家以搜索闻名的中国公司搜狗引擎还构建了一个名为“知立方”的知识图,以提高搜索质量。
图1 “姚明”在谷歌搜索引擎中的搜索结果
知识图谱已成为人工智能、数据库和语义Web领域的一个热门术语,它是指以图形式表示的任何知识集合,如语义Web知识库(如DBpedia[1]和Yago[2])、RDF数据集和形式本体。图结构中的节点可以是概念、实体和文字,边是不同类型的关系。如图2所示,实体代表现实世界的个人(例如,“P.R.中国”和“北京”)。概念代表了一组具有相同特征的个体,如“中国”、“希腊”、“美国”等,构成了一套与“国家”概念相对应的概念。文字是指表示某些关系的特定值的字符串,如字符串“中国”,实体“P.R.China”的中文名称。这些节点之间的边代表着实体、概念和文字之间的不同关系,如“中华人民共和国”是一个“国家”,“中国”的首都是“北京”。所有这些关系及其相关实体、概念或文字都以知识图谱的三元形式存储,知识图谱是知识图谱的基本存储单元。三元组以<主语、谓语、宾语>的形式组织知识,例如<P.R.中国、is-a、Country>和<P.R.中国,中文名称“中国”>
图2 知识图谱部分示例
人工智能的核心目标是为机器提供学习和推理的能力,因此许多研究人员专注于研究机器学习、逻辑推理等技术。这里的一个关键问题是如何表示和存储获得的知识,以便机器重用。知识图谱是解决这个问题的有力方法。它通过提供机器可读的知识,使机器更加智能,从而提高了学习和推理的能力。不同语言和不同领域的知识图谱表正在促进人工智能的发展。
KG发展历程
知识图谱本质上起源于语义网络[3]。语义网络诞生于20世纪50年代末和60年代初,它是一种基于图的数据结构,用于存储知识,可以是有向的,也可以是无向的。利用语义网络表示和存储自然语言句子是一种非常方便的方法,可进一步应用于机器翻译、问答和自然语言理解等领域。20世纪70年代,许多工作开始研究语义网络与一阶谓词之间的关系.例如,Simmons等人[4]提出了一种将语义网络转换为谓词逻辑的算法,而Schubert[5]提出了一种利用语义网络来表示一阶谓词逻辑中的连词和量词的方法。20世纪80年代,人工智能研究的主流已经成为知识工程和专家系统,特别是基于规则的专家系统。在这一时期,语义网络理论日趋成熟,基于语义网络的推理研究也越来越多[6]。更重要的是,语义网络的研究开始转向具有严格逻辑语义的知识表示和推理。从20世纪80年代末到90年代,语义网络的研究主要集中在概念之间的关系建模上。在此基础上,提出了术语逻辑和描述逻辑。这一时期的代表作是Brachman等人提出的 CLASSIC语言[7]。和由HorRock提出的事实推理机[8]。在21世纪,语义网络有了一个新的应用场景,即语义Web。语义网是由网络的创始人TimBerners-Lee和他的合作者提出的。他们的目标是通过W3C标准实现Web的扩展,以便在不同的应用程序中共享和重用数据。在这一阶段,知识通常被组织为模式或本体。此后,随着链接数据[9]的出现,不同类型的知识库在网络上发布和相互链接,形成了一个大规模的全球知识库,称为链接开放数据云(参见图3(https://lod-cloud.net/)).)。这种开放的知识库为Google知识图谱项目的成功奠定了基础。
与早期的语义网络相比,知识图谱有其自身的特点。首先,知识图谱由概念、实体、文字及其关系组成。早期的语义网络是用来表示自然语言的句子,而不是结构化的知识。其次,与人工构建的语义网络相比,知识图谱的构建主要依赖于自动知识挖掘技术,而自动知识技术在在线百科全书、文本和数据库中应用较多。最后,知识图谱的构建强调不同来源的知识融合和知识清洗,而这并不是早期语义网络的重点。随着知识挖掘技术的不断提高和数据源(文本、图像、传感器、视频等)的丰富,各种知识图谱的规模呈爆炸式增长。以链接开放数据云为例,2007年RDF三元组约为20亿,2011年增加到310亿,到2017年8月底,RDF三元组已超过400亿。
图3 链接开放数据云图
典型中文KG
虽然链接开放数据云包含一些多语言的知识图谱,但大部分知识(包括概念、实体、三元组等)仍然是用英语表示的,中文知识的数量也相当少。例如,DBpedia包含超过500万个英文实体,但只包含不到100万个中文实体。Yago虽然包含了一定数量的中文标签,但是它没有中文版本。现实世界中实用中文知识图谱的缺乏,阻碍了中文语义应用、人工智能和语义网自身的发展。这就是为什么中国的研究人员应该努力构建中文知识图谱谱,好消息是他们已经取得了非常令人鼓舞的进展,例如大规模的中文百科全书知识图谱谱 Zhishi.me[10]、CN-DBpedia[11]、XLORE[12,13]、PKU-PIE 、Belief-Engine 和中文层次模式知识图谱 cnSchema 和 Linked Open Schema [14–16]。
Zhishi.me:Zhishi.me是由三大中文在线百科全书:百度百科全书(https://baike.baidu.com)、互动百科全书(http://www.baike.com)和中文维基百科(https://zh.wikipedia.org)组成的第一个中文百科全书知识图谱谱。它采用与DBpedia类似的方法,从这三种在线百科全书中提取结构化知识,并通过固定的规则将它们之间的等价实体链接起来,从而构建一个大规模的中文通用知识图谱谱。它现在包含超过1000万个实体和1.25亿个三元组。
CN-DBpedia : CN-DBpedia是继Zhishi.me之后的中文知识图谱的又一个里程碑。类似于Zhishi.me, CN-DBpedia也是一个大型的中文百科知识图谱,它使用Zhishi.me的相同数据源。不同于Zhishi.me (CN-DBpedia)的是它不仅从中文三大在线百科全书中提取结构化知识,而且对提取的知识进行整合、补充和纠正,极大地提高了知识图谱谱的质量。此外,CN-DBpedia也是一个不断更新的知识图谱。在CN-DBpedia中有940万个实体和8000万个三元组。
PKU-PIE:是由北京大学构建的中文百科全书知识图谱。它从维基百科、DBpedia、百度百科等多种来源中提取知识。并将其与定义的再分配系统和类别结合在一起。PKU-PIE的开发人员不发表任何论文或技术报告,因此我们无法了解构建此知识图谱的技术细节。PKU-PIE现在包含约900万个实体和4000万个三元组。
XLORE : 大多数中文知识图谱,如Zhishi.me、CN-DBpedia和PKU-PIE,都不考虑中文知识图谱与其他语言知识图谱之间的跨语言知识共享。清华大学构建的大规模英汉双语知识图谱XLORE是解决这一问题的一项重要工作。它是通过分别从中英在线百科全书中提取半结构化数据,挖掘中英实体之间的等价关系来构建的。XLORE包含1000多万个双语实体。
Belief Engine:Belief Engine也是一个由百度百科、互动百科和维基百科构建的英汉双语知识图谱。与Xlore不同,Belief Engine仅从这三个在线百科全书中提取陈述性知识,并通过概念化陈述性知识来进一步产生概念级的常识。每个常识将在这个过程中得到一个置信值。Belief Engine包含大约5000万个三元组,并且没有任何介绍其构建细节的论文。
上述工作的重点是构建实体级的知识图谱。与之不同的是, cnSchema和 Linked Open Schema是两种中文模式级知识图谱。cnSchema手动定义数千个类、数据类型、属性等。它重用、互连和扩展了现有的Schema.org、Wikidata等模式,并考虑了中文语言的特点,提供了数据描述和接口定义。Linked Open Schema是从英汉社交网站构建的一种大规模的英汉双语模式知识图谱。在社会网站中提取的概念中,它包含了超过70万个双语概念和大约240万个的关系(包括等价,子类和相关关系)。
中文KG构建技术
在本节中,我们将重点介绍已经在构建现实世界中使用的技术中问知识图谱。我们总结了这些技术的总体框架,如图所示在图4中。该框架包含四个阶段:知识抽取、知识集成知识质量改进和知识更新。
图4 构建中文知识图谱的总体框架
知识抽取:中文知识图谱构建的第一阶段是知识抽取。主要有三种类型的数据源,即结构化数据、半结构化数据和非结构化数据,用于知识抽取。结构化数据是指具有严格数据模型的数据诸如存储在表和关系数据库中的数据的结构。半结构化数据是指具有一定结构但是不是很固定的数据,如XML数据。非结构化数据通常是指没有预先定义的数据模型的信息,例如文本。
知识集成:大多数中文知识图谱都是从各种来源提取出来的,因此有必要对这些异构的知识进行集成。中文的知识图谱有些只选择链接知识,即链接在不同来源中的等价的实体、概念、属性等,而另一些中文知识图谱则是在知识链接后再进一步融合等价的知识。
知识质量改进:构建中文知识图谱需要大量的数据源(如Wikipedia、百度百科等),而这些数据源是由人自由编辑的,因此知识图谱中的错误在所难免。因此,通过误差检测和校正技术来提高知识图谱数据的质量是非常重要的。此外,知识图谱是不完整的,为了提高数据质量,知识补全也是必要的。
知识更新:由于在新闻和其他网络中不断出现的新兴的实体,并且随着时间的推移,现有实体的知识也可能会发生变化,所以更新机制对于保证在特定的时间点知识图谱的完整性和准确性是很重要的。
知识抽取
现有的中文知识图谱,包括Zhishi.me、CN-DBpedia、XLORE等,都是从结构化或半结构化数据中提取知识的。以Zhishi.me为例,以百度百科全书、互动百科全书和中文维基百科三大中文百科全书为数据源,从中提取了大量的知识。如图5所示,Zhishi.me从这三个在线百科全书的文章中的结构化数据(例如消息盒)和半结构化数据(例如标签、摘要、类别和重定向)中提取实体及其相关知识,我们还列出了用于表示知识的一些生成的RDF三元组。除了Zhishi.me,CN-DBpedia和XLORE都采用类似的方式从在线百科全书中提取知识。Linked Open Schema提取层次化类别和社会标签半结构化数据)作为模式级知识挖掘的来源(如图6所示),即挖掘类别和标签之间的语义关系。
知识集成
大多数中文知识图谱都是从各种资源中提取知识的。例如Zhishi.me、CN-DBpedia和XLORE从百度百科、互动百科和中文维基百科中提取知识。Linked Open Schema中的类别和标签是用不同语言从不同类型的社交网站中提取的。因此,有必要对这些异质知识进行集成。现有的中文知识图谱以知识链接和知识融合两种方式集成知识。
知识链接
知识链接的目的是挖掘不同来源的实体或概念之间的语义关系(如实体之间的等价关系和概念之间的子类关系)。我们把这种关系视为链接。
单一知识链接:Niu等人[17]提出了一种基于EM算法的半监督学习方法,用于在Zhishi.me的不同在线百科全书中寻找等价实体。这是一种不用于构建英语百科全书知识图谱的新技术,因为它们只依赖英语维基百科,而Zhishi.me则从三个中文在线百科全书中提取知识。该方法利用少量现有的等价实体作为种子,迭代挖掘和细化匹配规则集,利用这些规则找到新的高置信度的等价实体。
在该方法中,利用owl:sameAs关系链接的少量现有等价实体及其属性作为种子,挖掘更多等价实体。对于每一对存在的等价实体,该方法首先尝试从它们中挖掘等价属性。然后,通过关联规则挖掘从这些等价属性中挖掘出频次集,每个频次集由若干对等价属性组成。挖掘出的频次等价属性集用于构建匹配规则,并应用于整个数据集以发现新的等价实体。例如,在图7中,百度百科中的属性“标签(Label)”等同于互动百科的属性“学名(Scientific name)”,和百度百科的“别名(Alias)”相当于互动百科的“二名法(Binomial Name)”。如果等价属性集合(如上述的等价属性对)是一个频次的集合,这意味着它也可以从许多其他等价中挖掘出来实体,则将用于构造匹配规则。图7也给出了匹配规则的一个例子,当且仅当频次集中对应的等价属性的值都相等时,实体e1和e2才是等价的。
新发现的具有高置信度的等价实体将被添加到种子集中,该方法将开始下一个迭代。发现规则和等价实体的迭代过程遵循期望最大化(EM)算法。E-step使用匹配规则发现新的等价实体,M-step通过最大化这些规则的精度,从E-step中发现的等价实体挖掘新的匹配规则。该算法不断迭代,直到再也找不到新的等价实体为止。基于EM算法的半监督学习在保持较高的精度和良好的覆盖率的同时,自动挖掘特定的数据集的匹配规则。这些派生规则能够为不同数据源找到最具鉴别性的数据特征,因此它不是指定于域或指定于数据集的。
Wu等人[14]在 Linked Open Schema中,提出了一种基于自训练到模式级知识链接的半监督学习方法。这种方法使用少量的初始标记数据与自训练算法之间挖掘等价关系、子类关系和关联关系来自不同社交网站的类别和标签。在自训练过程的每次迭代中,该方法学习SVM分类器。然后将分类器应用于未标记的数据。在这里,规则被用来修正错误分类的结果。之后,新发现的关系将是添加到已标记的数据中。如果预测的标签没有任何变化,整个过程将终止。他们通过度量概念对之间的关联性(即一对类别,或一对标签,或一个类别和一个标签)和设计不同的特征来训练SVM分类器。此方法利用了使用规则和机器学习技术的优点,可以获得更好的学习效果。自训练算法简单有效,适用于大规模的知识链接。但是,该方法的缺点是需要人工设计训练特征,在不同的应用场景中需要重新设计不同的特征。
跨语言知识链接:跨语言知识链接也是知识链接的一项重要任务,它可以极大地丰富跨语言知识,促进跨语言知识的共享。这是一个新的任务,不再仅仅依靠维基百科页面之间的跨语言链接来链接不同语言的知识。
Wang等人[18]提出了建立跨语文在线百科全书跨语言链接的方法。该方法只使用与语言无关的文章特征(一篇文章对应于一个实体),并使用一个链接因子图模型来预测实体之间的新的跨语言链接。这种方法在XLORE中使用。本文通过对现有跨语言链接的分析,发现几个因素,包括链接同质性、范畴同质性和作者兴趣,有助于跨语种实体链接。例如,如果两个实体的文章共享更多的公共链接(链接和链接)和类别,而这些文章的作者有更多的共同兴趣,那么这两个实体更有可能是等价的。因此,该方法设计了四个特征,以衡量两个特定实体的文章在不同语言中的公共链接、类别和作者兴趣的相似性。利用这些特征构造连接因子图模型的节点特征函数。此外,还定义了边缘特征函数和约束特征函数。边缘特征函数考虑节点之间的关系,假设一个实体连接到另外两个等价实体,那么这三个实体往往是等价的。约束特征函数对节点间的所有关系定义了1到1的链接约束.在关联因子图模型的基础上,定义了三个特征函数之间的联合分布。给定一组标记数据,可以学习参数,并且可以用该模型预测实体之间的新的跨语言链接。
Wang等人[19]还认为,当实体间现有的跨语言链接不足以作为训练数据时,发现新的跨语言链接变得更加具有挑战性。因此,他们提出了一种通过概念注释来促进跨语言实体连接的方法。这种方法也在XLORE中使用。在这种方法中,概念注释的目的是识别给定实体文章中的重要概念,并将它们链接到同一在线百科全书中的相应文章。它首先通过将输入文章中的所有n-图与受控词汇表中的元素匹配来提取每篇文章中的关键概念,然后使用贪婪消歧算法来匹配关键概念的相应条目。匹配的文章将链接到文章,从而丰富了在线百科全书的内部链接。在概念注释之后,一些基于链接的特性被设计用来预测新的跨语言链接,这些特性度量了公共链接(链接和内链接)的相似性以及两篇文章之间的类别。提出了一种基于回归的学习模型,用于学习不同相似度特征的权重,用于对候选跨语言链接进行排序。为了找到尽可能多的新的跨语言链接,该方法采用了一个迭代框架,允许概念注释和跨语言链接预测相互加强。
知识融合
与知识链接不同,知识融合的目的是整合不同数据源的知识,而不是将它们联系起来。为了融合不同数据源中的等价知识,CN-DBpedia利用规范化模块对含义相同但字符串标签不同的实体、属性和属性值进行规范化。例如,在百度百科中,“生日(birthday)”用来描述一个人的出生时间,而在互动百科中,“出生日期(birth date)”描述的是相同的属性。在使用规范化模块之后,“生日(birthday)”将以统一的方式描述该属性。在许多情况下,集成知识图谱比几个相互链接的知识图谱更方便和有效地使用。因此,知识融合策略被应用于一些中文知识图谱(如CN-DBpedia)。然而,在融合不同数据源的知识时,可能会出现冲突,可能会给知识图谱带来错误,需要很多人的努力。目前构建中文知识图谱所采用的知识融合策略还比较简单,本部分考虑的是采用英语知识融合中提出的一些独立于语言的方法[20,21]。
知识补全
从各种来源构建的中文知识图谱,在类型信息、消息盒信息等方面都是不完整的。因此,补全这些知识图谱的质量改进是必要的。知识图谱补全技术包括类型推理和消息盒补全,本小节将对此进行详细介绍。
类型推断:类型信息是指说明实体是某种类型的公理。这些公理可以表示为三元组,每个三元组由从类到 实体,例如“美国总统” Type Of “Donald Trump” 和“欧洲国家” Type Of “意大利” 。类型信息对不同研究领域的许多应用也都是 有益的,例如实体搜索[ 22,23 ] 和问答[ 24 ] 。
属性驱动类型推断:维基百科现有的基于语言规则构建英语知识图谱的类型推断方法不能应用于汉语知识图谱。因此,Wu等人在Wikipedia中提出了一种新的独立于语言的实体类型推断方法,并在Zhshi .me中得到了应用。这种方法基于一个属性驱动的类型推断假设:在Wikipedia中,如果一个实例包含一个类的代表性属性,则该类与实例之间可能存在一种具有高概率的关系类型。例如,给定某一个实体的属性为演员,上映日期,导演,人们可能推断出该实体的类型是电影。然而,若给定实体的是属性为名称或者外国名称,人们无法推断实体的类型,因为太多的类具有属性名称或外国名称。该方法首先从Wikipedia文章的消息盒中提取实体的属性。考虑到许多实体的属性仍不完整或丢失,对于每一个实体,它利用一个向量的相似性度量和类相似性度量获得最相似的实体已经有属性,和最相似的属性实体用于补充给定实体的属性。然后,采用一种综合多种语言无关规则的通用算法,迭代获取类的属性。最后,利用随机图游走模型计算类与给定实体之间存在关系类型的概率。属性驱动的类型推断采用独立于语言的特性,即属性来构建实体和类之间的语义关联。它可以从在线百科全书(如多语种维基百科)中推断出不同语言实体的类型。
另一项工作[26]与[25]有非常相似的想法。应用上述属性驱动的类型推断假设,设计了一个随机图漫步模型,计算类与给定实体之间存在某种类型关系的概率。不同之处在于(1)本工作没有从其他类似的实体中挖掘更多的实体属性,(2)提出了几种依赖于语言的启发式方法,从中文在线百科全书文章的摘要和消息盒中推断实体类型。
跨语言类型推断:Xu等人[27]提出了一种跨语言类型推断方法即使用英语中一些被广泛接受的分类法对中国实体进行类型划分,比如DBpedia分类法。这是构建英语知识图谱所不存在的一项新任务,因为许多非英语知识图谱由于缺乏合理的实体类型而无法进行实体类型的划分局部的层次分类。建立一个被广泛接受的分类法需要人类付出巨大的努力,因此,该方法可以极大地减少人工的工作量,并通过输入增强类型推断在定义良好的分类法中使用英语类型的中文实体。这种方法首先利用现有的建立中英文实体之间的跨语言链接,构建训练数据,然后学习一个层次分类模型,用于预测给定的中文的实体的英语类型。在CN-DBpedia中使用了这种方法。
在构建训练数据的过程中,如果一个中文实体和一个英文实体已经存在在Wikipedia中,这两个实体之间存在一个跨语言链接,称为等效链接或跨语言链接则中文实体将贴上英文实体的类型标签。例如,中文实体“威廉莎士比亚”标签的类型实体“ William Shakespeare ”,即“英国男舞台演员”,“英国作家”、“英国诗人”等。通过这种方式,可以将大量的标记数据生成为训练数据。在此基础上,建立了一个有监督的层次分类模型,该模型接受一个无类型的中文实体(具有其特征)作为输入,并输出DBpedia分类中所有有效的英文类型。我们使用图8中的一个例子来说明这个模型。在训练阶段,它首先进行训练层次结构中除根节点“Thing”之外的每个类型的二分类器。二分类器每一种类型都使用属于该类型的所有实体作为正例,以及那些属于该类型的实体以该类型的派生类型或超类型为反例。例如,类型的分类器“Actor”使用所有属于这种类型的实体作为正例。“作家”和“诗人”这两个兄弟类的实体,以及那些属于超类的“人”的实体,都被当作反例。在对分类器中各类型分类器进行训练后,层次分类模型是由层次结构中的这些二分类器组成的。
图8 部分DBpedia分类和层次分类模型
当使用此模型预测给定实体的类型时,它将遍历DBpedia分类法以自顶向下的方式搜索此实体的类型。它首先访问第一级中的类型该分类法是根节点“Thing”的子类型,并将它们添加到候选类型集中。然后,对于每个候选类型,该方法运行该类型的分类器来测试给定实体是否属于这种类型。如果结果为真,则将其所有子类型添加到候选类型集中。当不能处理更多的候选类型时,流程结束。所有类型,它们被分类为对于此过程中给定的实体为true,则作为其类型附加到该实体。
消息盒补全:消息盒以三元组的形式显式地包含实体的结构化事实(每个都表示为三元组)如<主语,谓语,宾语>),如<姚明,身高,2.29米>。如图5所示,Zhishi.me分别从百度百科、互动百科和中文维基百科的消息盒中提取属性。类似地,CN-DBpedia和XLORE都从这三个在线百科全书中提取了消息盒信息。然而,关于消息盒中实体的结构化事实是不完整的,而且很多事实隐含地存在于与在线百科全书实体相对应的文章中,例如消息盒中的非结构化数据的补全也是知识补全的重要组成部分。
Xu等人提出了一种混合的长短时记忆递归神经网络框架从自由文本中提取知识,可以使用这种方法在CN-DBpedia对消息盒的进行补全任务。CN-DBpedia将消息盒补全任务视为从与给定实体对应的文章中提取给定对主语和谓语的对象。该方法将提取问题建模为一个seq2seq的学习问题。输入是一个包含令牌的句子,输出是每个令牌的标签。标签是要么为1,要么为0,预测令牌是否为谓词对象的一部分。例如,图9中的句子取自与百度百科中的实体“Yao Ming”对应的文章。“出生地”的提取者将把“上海”和“徐汇区”标注为“姚明”的真实名称。为了缓解人力的负担,这种方法也采用了远程自动监督的方法构造训练数据。它可以构造能够表达消息盒中的事实句子作为训练数据。例如,如果< Yao Ming, Height, 2.29 m >出现在姚明的消息盒中,则该方法将造句“姚明的身高是2.29米”,并在句子中正确地标注宾语。为了涵盖尽可能多的有用信息,这种方法训练了单词的混合表示,输入令牌序列中每个令牌的短语和类型。然而,训练是长期的短期的记忆递归神经网络模型由于需要大量的参数,需要更高的时间复杂度来估计。
图9 从文本中抽取对象的示例
知识更正
百度百科、互动百科和中文维基百科都是协作式的在线百科全书,内容由用户自由编辑。这些在线百科全书不可避免地存在错误和矛盾。因此,通过知识修正来提高从这些资源中提取的知识的质量是非常重要的。知识矫正的过程包括两个阶段,即、误差检测和更正。
Xu等人提出了两种错误检测方法,并将其应用于CN-DBpedia中。第一个是基于规则的错误检测。该方法使用许多预定义的规则来检测违反规则的错误。例如,它使用属性的域和范围来查找错误。比如属性“生日”的范围应该是时间,任何其他类型的值都是不正确的。第二个方法基于用户反馈。CN-DBpedia提供了一个用户搜索界面来浏览的知识。该接口允许用户提供关于CN-DBpedia事实的正确性的反馈(参见图10)。
图10 提供反馈的CN-DBpedia接口
在错误检测之后,Xu等人也提出了一种基于众包的更正方法。错误事实被分配给众包的不同贡献者进行更正。然后采用一种简单而有效的方法,即多数投票以聚合多个和有干扰的贡献者输入,去产生一致的输出。
知识更新
新兴实体的迅速出现,与实体相关的知识也可能随着时间发生变化。随着时间的推移,知识图谱中会出现一些过时的知识,没有更新。通过采用更新机制,防止知识图谱过时是非常重要的。
定期更新:现有的中文知识图谱大多采用定期更新,如Zhishi.me、XLORE等。它是指经过一段时间后,用一个新的版本的知识图谱替换旧的知识图谱。周期性更新的问题是,如果更新周期过长,那么在知识图谱中就会存在大量过时的知识。如果更新周期过短,将会消耗大量的计算资源。
主动更新:为了克服周期性更新的缺点,采用主动更新技术以较高的频率和较低的成本更新知识图谱。大多数知识图谱不采用主动更新策略。DBpedia通过Wikimedia 基金会提供的更新流进行主动更新。然而,大多数中文在线百科全书并没有提供这样的更新流。因此,Liang等人提出了一种新的主动更新方法,并将其应用于CN-DBpedia中。这种方法基于这样的假设:热实体和与它们语义相关的实体比知识图谱中的其他实体更有可能更改或成为新实体。该方法首先从热点新闻标题、搜索引擎热门搜索关键词、社交网络热点话题等方面提取热点实体。然后检查这些实体是否需要更新,或者它们是否是当前知识图谱中不存在的新实体。如果结果为真,在线百科全书中这些实体的信息将同步(更新或插入)到知识图谱中。为了获得更多的热实体,该方法使用与现有热实体对应的最新文章中的超链接来查找更多相关的实体。这里给出一个主动更新的例子,新闻标题“Donald Trump 被选为美国总统”包含了一个实体“Donald Trump”,而职业属性值需要更新为“美国总统”。
为了在有限的资源下提高更新的效率,该方法训练了一个监督系统学习基于知识图谱中所有实体的历史变化频率的预测器用它来预测未来热实体的变化频率。当资源有限时,当热实体预测的变化频率较高时,将该热实体首先同步到知识图谱。因为大多数知识图谱中的实体不需要更新,当只更新知识图谱中很小一部分实体时将会消耗更少的计算资源。在每个更新周期中,由于消耗计算资源的较小,使得这种方法能够以更高的频率更新知识图谱。然而,与定期更新相比,每一次周期更新的知识总量仍然占知识图谱中所有过期知识很小的比例。
中文KG应用
目前,中文知识图谱在许多不同的智能应用中都发挥了重要的作用,下面将对其进行介绍。注意,不同语言的知识图谱可以分别应用于不同语言的语义搜索、问答、智能分析、决策等应用。这些不同语言的应用程序使用知识图谱的方式是相似的,唯一的区别在于一些应用程序需要哪种语言技术来支持它们。例如,不同语言的问题回答需要使用不同的方法来解析给定文本问题的句法结构。
语义搜索
中文知识图谱能够提供高质量的结构化背景知识和常识性知识,帮助搜索引擎更好地理解用户的查询意图,从而提供更简洁、智能的搜索结果。该技术克服了传统的基于关键词的搜索模型的局限性,将基于web的搜索转化为语义搜索。这使得搜索引擎更加智能化,有效地提高了搜索结果的质量。目前,大多数中文搜索引擎如百度、搜狗和都建立了自己的知识图谱,以增强用户的搜索体验。如图11所示,当你在百度搜索引擎搜索一带一路,除了相关的网页左侧所示一带一路,一带一路的成员也在右边。这就是知识图谱技术的应用。搜索引擎首先识别用户搜索关键字中的实体,然后在知识图谱中获取与这些实体相关的知识,最后将结构化的知识返回给用户。
图11 百度搜索“一带一路”的搜索结果
问答
智能问答(QA)是人工智能的重要应用。它可以用准确、简洁的自然语言为用户提供问题的答案。可大大提高效率,降低人工干预成本。这种对话性的信息获取依赖于质量保证系统的准确性和可靠性。知识图谱通过提供高质量的背景知识,可以帮助提高机器人、物联网等设备的智能。如图12所示,当提交一个问题:“一带一路的倡议国是?”到支持中文知识图谱的QA系统,该系统将首先使用自然语言处理技术将问题转换为实体“一带一路”的属性为“倡议国”的属性值是什么?,然后在给定知识图谱中获得属性值“中国”,最后再把答案返回给用户。目前,许多研究人员正在研究知识库问答(KBQA)的技术(29、30)和目前在中国已经有很多的QA平台,并且已经引入了知识图谱,以确保更好的用户体验。比如百度公司的机器人“Xiaodu”,阿里巴巴公司的机器人“Xiaomi”,苹果公司的智能语音助理“Siri”和微软的机器人“Cortana”。
图12 基于知识图谱的中文问答系统示例
智能分析决策
知识图谱可以表示和链接多种类型的数据,如文本、多媒体、传感器等,在不同类型的大数据之间建立关联。这种关联的大数据可以很容易地用于信息分析和辅助决策。知识图谱在智能分析中起着非常重要的作用。如图13所示,在反欺诈情报分析的场景中,我们可以通过融合来自不同数据源的信息,添加领域专家建立的业务规则来构建一个情报知识图谱。通过知识图谱中的数据不一致性检测,可以识别潜在的欺诈风险。例如,借款人张先生和借款人吴先生在填写个人信息时声称是同事,但填写的公司名称不同。此外,张先生的电话号码也是另一位借款人甄先生的。这些不一致表明存在潜在的欺诈行为,因此银行将分别拒绝张先生、吴先生和郑先生的贷款请求。此外,知识图谱已经应用于许多其他类型的情报分析,如警察情报分析、库存情报分析等,以辅助决策。
图13 情报分析的反欺诈示例
信息融合
随着万维网的发展,人们可以从大量不同的数据源获取大量的信息,这就导致了信息异构的问题,传统的方法很难根据用户的需求来集成这些信息。知识图谱可以表示、链接和集成来自不同数据源的不同类型的数据,成为信息集成的有效工具。近年来,随着中国经济的发展,中国已成为全球制造业中心。由于各种来源的制造信息规模呈爆炸式增长,我们可以将不同数据源的制造信息集成到一个知识图谱中,便于利用和可视化。图14给出了装备制造部分知识图谱。
图14 设备制造部分知识图谱
垂直领域应用
在金融领域,知识图谱推动了多情景智能的发展。我们可以通过整合来自不同来源的客户数据来制定营销策略,构建客户知识图谱。通过从财务报告、招股说明书、公司公告等数据中提取数据,构建公司相关知识图谱,帮助金融研究人员做出投资决策。通过对影响股票的各种因素进行建模,可以构建股票知识图谱。目前,国内很多金融企业都引进了知识图谱技术,目的是想获得该行业金融AI的头把交椅。以中兴通讯公司为例,在美国限制出口中兴的消息公布后,如果我们有中兴通讯的知识图谱及其相关公司包括供应商、合作伙伴和竞争对手(见图15),我们可以迅速筛选受影响的上市公司,挖掘投资机会或控制投资风险。
图15 与中兴通讯相关的部分知识图谱
在电子商务领域,许多公司(如阿里巴巴)也在部署知识图谱技术。电子商务平台不仅包含大量的商品,还包含与这些商品相关的产品、制造商、供应商等各种对象。如何有效地管理和建模这些对象及其关系已经成为一个重要的挑战。知识图谱以其灵活、强大的本体建模能力,能够有效地对知识进行建模和管理。阿里巴巴的知识图谱谱以商品、标准产品、品牌和标准分类为核心,利用实体识别、实体链接和语义分析技术整合异构知识。它是一个包含数十亿个三元组的巨大的商品知识图谱。广泛应用于阿里巴巴的核心业务,如商品搜索、购物指导、平台管理、智能QA、品牌推广等。这极大地推动了阿里巴巴电子商务平台的发展。
在社交网络、生物医学、物联网等领域,知识图谱谱也发挥着越来越重要的作用。这是由于知识图谱的广泛应用,使得它在近年来变得越来越受欢迎。
OpenKG
OpenKG (http://www.openkg.cn/)(见图16)是一个中文开放知识图谱社区,旨在促进中文知识图谱的开放获取和互联互通。到目前为止,已有56家来自产业界和学术界的机构贡献了他们自己的知识图谱。它包括Zhishi.me、CN-DBpedia、XLORE等在内的共吸引了80个高质量的知识图谱。涵盖百科全书、金融、医疗、农业、商业、社交网络等15种不同的知识图谱谱。此外,还有45种不同的开放工具用于知识图谱的构建、集成、补全和推理。OpenKG整合了中文最丰富的知识图谱资源。
OpenKG社区旨在将不同的中文知识图谱互联起来,促进中文知识图谱的开放和互联。例如,它已经建立了大型中文百科全书知识图之间的联系,其中包括 Zhishi.me、CN-DBpedia、XLORE、 Belief-Engine、PKU-PIE等。这极大地促进了中文通用百科知识图谱的开放性和互联性。这些链接百科知识图谱(http://link.openkg.cn)向公众开放,用户可以从OpenKG网站下载完整的链接数据集,也可以通过OpenKG提供的接口访问数据。在未来,OpenKG社区将继续链接垂直领域中的知识图谱。
图16 OpenKG:开放的中文知识图谱社区
知识图谱前沿:深度学习
与深度知识大交融 | 公开讲座报名
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!